10.4 분포 강화학습 (Distributional RL): 기댓값을 넘어서 10.4 분포 강화학습 (Distributional RL): 기댓값을 넘어서 10.4.1 가치 함수의 기댓값(Expected Value) 한계와 분포(Distribution) 모델링의 필요성 10.4.2 C51, QR-DQN에서 IQN(Implicit Quantile Networks)까지의 발전 10.4.3 위험 회피(Risk-Averse) 제어와 불확실성 하에서의 로봇 의사결정